Combinaison des caractéristiques des termes pour l'extension de requêtes en recherche d'information dans les documents semi-structurés

نویسندگان

  • Lobna Hlaoua
  • Mohand Boughanem
  • Karen Pinel-Sauvagnat
چکیده

In traditional Information Retrieval (IR), users often express their needs using simple keywords, because this is the most simple way to query systems. Queries composed of simple keyword terms are also very used in structured IR (i.e. IR on structured documents like XML documents), since they do not require any knowledge of the documents structure. However, such queries are often not sufficient to describe precisely users’ needs. In this paper, we propose a new approach of Structured Relevance Feedback on queries composed of simple keywords terms. This approach allows on the one hand to enrich the initial query according to relevance judgements, and on the other hand, to express a degree of preference for each keyword, by weighting them. Our approach is based on a combination of term features in relevant elements. Our proposition is evaluated thanks to the INEX evaluation campaign and results show the interest of our methods. MOTS-CLÉS : reformulation, document XML, contexte, contenu, RI.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Unités d'indexation et taille des requêtes pour la recherche d'information en français

RÉSUMÉ. Dans cet article, nous nous intéressons à la recherche d’information en Français. Nous analysons différentes techniques d’indexation (basées sur des lemmes, des radicaux ou des termes) et leur fusion. Nous analysons également l’influence de la prise en compte des différentes parties d’une requête. Notre étude porte sur 6 campagnes d’évaluation de CLEF Français. Nous montrons que l’utili...

متن کامل

Modèle unifié pour la recherche d'information sémantique

Résumé : Un modèle documentaire permet de définir les unités d’indexation (mots, termes, etc.) et de les relier aux documents dans lesquels elles apparaissent. Il permet également de définir les liens entre documents ou portions de documents (ex. citation). Les modèles documentaires sont généralement exploités en recherche d’information pour la représentation des documents et des requêtes et il...

متن کامل

DocCat: un composant logiciel de catégorisation de documents et de marquage sémantique XML

Résumé : Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt ...

متن کامل

Recherche d'information dans des documents structurés par proximité des termes

RÉSUMÉ. Nous présentons une méthode pour calculer un score d’un élément quelconque d’un document structuré qui prend en compte la proximité des termes de la requête dans le texte du document. Plus précisément nous définissons autour de chaque occurrence d’un terme de la requête une fonction d’influence. Pour une occurrence qui apparaît dans le texte proprement dit, cette fonction d’influence dé...

متن کامل

Expansion de requêtes pour la recherche d'information multilingue

1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007